Textual Inversionを試してみる
https://gyazo.com/461f9aa8415fdc0e45e20a4eb9d42dec
学習データ
https://gyazo.com/760f4eb8f518290288ed0a87b9b26e1a
AIが生成した写真、AIが生成したモネ風絵画
https://gyazo.com/ffa21fa2d8ab09a2a76d41459efcbef9https://gyazo.com/29787da6b19012fc721907eeb6f3a285
ちなみにプロンプトは "a photo of うちのねこ" とか "a painting of うちのねこ by Claude Monet" 的な感じなんだけど、この「うちのねこ」部分をcatにすると下記のようになります。猫としての完成度は上がるけど「うちのねこ」の特徴は乏しいですね。
https://gyazo.com/a280b7afa562217920b6b3e6427b1a0dhttps://gyazo.com/960a4befc7d6f2f8c0d4ca6f3fbebc76
たぶんうちのねこは黒・オレンジ・白の3色の毛色の中の構造で、黒の色素が失われてオレンジもかなり薄くなってるタイプなのだと思う。
https://gyazo.com/73cf1b06b231de0dcb32f31cba3ef74ehttps://gyazo.com/29bbe5396e9c4a16f1ac0a765b4af8e4
Textual Inversionが生成する埋め込みベクトルのファイルは5KB程度。中身は768次元のfloatのベクトルがメインで、トークンに関する細かい情報が少し付属してる感じ。
---感想
@nishio: 現状は「あんまり似てないなぁ」という気持ちなんだけど、ランダムな猫の写真と比べると明らかに特徴を習得しているので、数年以内に亡くなった大切な人やペットの写真で学習させて面影を求めてガチャを回し続ける人がたくさん出現するだろうなぁという気はした。 例えば夭折してしまった娘の写真を学習させて毎日何百枚も生成しては気に入ったものを選びだすって作業をしていると、その「心の中に生きてる娘」の新しい写真が生まれていくわけで。行ったことのない観光地で記念撮影をしたり、やらなかった運動会の写真を撮ったり、結婚式写真を作ったり… 完全室内飼いのうちのねこをバーチャル海に連れて行った時のバーチャル記念写真です
https://gyazo.com/f71c768dc578e7a8e678af69f9b76bc6
"結婚式写真"
あー、そうなると「自分が考えた理想の婿」を生成してお見合いさせて結婚させた後、存在したことのない「孫」の写真を生成し始めることもできてしまうのか…
この「バーチャルリアリティ」はヤバい感じがするなぁ。需要があれば提供者も出るだろうし、業者が潰れてバーチャル孫が失われる悲劇とかも… 夭折してメタバースで成人した娘、Meta社にロックインされてる(地獄)
バーチャル娘と非実在婿が非実在湖畔の非実在きれいなお家で非実在畑で自給自足しながら非実在孫を育ててて、全部Meta社にロックインされてて維持費はサブスクリプションモデルで口座から引き落とされてる。最近ログインがないと思ったら本人は死んでたけど解約してないので引き落とされつづける(地獄)
「推しの写真を学習」という反応を見て、対象が生きてる場合も地獄がありそうだなと思った。大量に学習データがあって顔のクオリティあげやすそう。本人は成長していってるのに「いや、20歳の時のがいい」と成長を止められてメタバースで永遠に飼われる。 ポルノフィルタ外す奴が何百人もいそう。
アイドルでもなんでもない一般人でも現実的な枚数の画像でそれができてしまうのか。信頼できる人以外の前でマスクを外さないとか、顔を覆って家族以外に見せないとかのカルチャーが生まれる可能性もあるのか。 ---
ボウズマン
https://scrapbox.io/files/6323fdeeff937700225f1963.png
https://scrapbox.io/files/6323fdf1ff25a80021c2e9e2.png
すごくいいのができた!と興奮したが、これがベストケースで、その後100枚以上生成してもこれを超えるものは出なかった
https://gyazo.com/d3467678eae4ca379c5af5118ec9128a
「ボウズマンは大体ご当地料理を持っている」と解釈されているw
料理が本体になってる出力多すぎだろ、学習時に「characterだ」っていったじゃんー
実はこれが最初の実験で、テンション下がってしばらく放置してから「実写で試そう」となったのが上記のネコの実験
実写版ボウズマン
https://gyazo.com/33ea488b2647313b64c54627f439a519
https://gyazo.com/bd735fcae08827967d2e32798ea3075a
事前情報皆無で与えた画像だけから「質感」「使いがちな色」「COっぽいロゴ」「人に対するサイズ感」などいろいろなものを習得してて技術的には興味深いんだが…このクオリティではコンシューマは納得しないよなぁw
Results can be seed sensititve. If you're unsatisfied with the model, try re-inverting with a new seed (by adding --seed <#> to the prompt).
1回1時間のガチャを100回くらい回すといいものが出るかもしれない、出ないかもしれない
学習の結果得られるものは768次元のベクトル1個なので、複数のベクトルの中から良いものだけ選んで平均したりGAしたりすれば効率よく探索ができるかもしれない
結局評価関数が人間である768次元空間での最適化問題
うちの猫の学習は頑張れば満足レベルになりそう、ボウズマンは無理じゃないかな、という肌感
ボウズマンは1トークンでは無理で、例えば顔とロゴと服装の3トークンぐらいで表現される必要がありそう
未踏ロゴで学習
https://scrapbox.io/files/632401548ada340022341544.png
https://scrapbox.io/files/63240156cb72b60022b12ec9.jpg
ロゴ画像部分がわかるように背景を変えてみたんだけど、それでもダメなようだ
ロゴ形状の立体がいろいろな場所に置かれてる写真を撮るとかじゃないとダメか
「未踏ロゴ」ではなく「緑っぽくて斜めと水平の線がある抽象的な画像」という感じの理解をされたっぽい